On donne ci-dessous des
statistiques sur la sécurité routière en France :
année |
NT |
NB |
NA |
85 |
10.4 |
270.8 |
191.1 |
90 |
10.3 |
225.9 |
162.6 |
95 |
8.4 |
181.4 |
132.9 |
96 |
8.13 |
170.1 |
125.4 |
97 |
8.0 |
169.6 |
125.2 |
avec les conventions suivantes :
· NT : nombre de tués (en milliers)
· NB : nombre de blessés (en milliers)
· NA : : nombre d’accidents (en milliers)
1) On représente graphiquement les couples de la forme (année, NA) pour déterminer la nature de la liaison. On peut bien sûr relier les points par des segments de droite : cela revient à effectuer une interpolation linéaire entre deux années successives.
1) La diminution du nombre d’accidents entre 1985 et 1997 est évidente, mais il est bien difficile de choisir à l’aide du seul graphique si cette décroissance est linéaire ou exponentielle. On suppose tout d’abord que la liaison est linéaire. Le tableau de calcul est donné ci-dessous :
n° |
x |
y |
x² |
y² |
xy |
1 |
85 |
191.1 |
7225 |
36519.2110 |
16243.5000 |
2 |
90 |
162.6 |
8100 |
26438.7598 |
14634.0000 |
3 |
95 |
132.9 |
9025 |
17662.4102 |
12625.5000 |
4 |
96 |
125.4 |
9216 |
15725.1602 |
12038.4004 |
5 |
97 |
125.2 |
9409 |
15675.0400 |
12144.4004 |
Sommes |
463 |
737.2 |
42975 |
112020.6 |
67685.8 |
On en déduit l’équation de la droite de régression :
NA » -5.721 t + 677.1633
Le nombre d’accidents prévu pour 2000 est égal à :
NA » -5.721 x 100 + 677.1633
NA » 105.1079 |
Les erreurs d’estimation en chaque point (que l’on appelle résidus) sont calculées dans le tableau ci-dessous :
Année |
NA estimé |
NA observé |
Erreur |
85 |
190.9162 |
191.1 |
0.18 |
90 |
162.3134 |
162.6 |
0.29 |
95 |
133.7107 |
132.9 |
-0.82 |
96 |
127.9901 |
125.4 |
-2.59 |
97 |
122.2696 |
125.2 |
2.93 |
On vérifiera que ces erreurs sont de moyenne nulle aux approximations près). On sait aussi que la somme de leurs carrés est la plus petite possible. Leur variance est égale à :
s2 = 3.213875 |
2) On peut penser aussi à une décroissance exponentielle en considérant que la diminution, de 60 000 entre 85 et 95, ne peut guère continuer à ce rythme puisque le nombre est toujours positif.
On considère comme variable expliquée le logarithme du nombre d’accidents ln(NA) et l’année t comme variable explicative.
n° |
x = année |
y = ln(NA) |
x² |
y² |
xy |
1 |
85 |
5.2528 |
7225 |
27.5919 |
446.4877 |
2 |
90 |
5.0913 |
8100 |
25.9213 |
458.2164 |
3 |
95 |
4.8896 |
9025 |
23.9082 |
464.5117 |
4 |
96 |
4.8315 |
9216 |
23.3435 |
463.8248 |
5 |
97 |
4.8299 |
9409 |
23.3281 |
468.5015 |
Sommes |
463 |
24.89511 |
42975 |
124.0928 |
2301.542 |
On déduit des sommes ci-dessus les coefficients de la droite de régression :
log(NA) » -0.0161 t + 3.65080
L’an 2000 est codé par t = 100, et on obtient :
log(NA) » -1.61 + 3.65080 » -1.61 + 3.65080» 2.043413
NA » 110,51 |
On calcule de la même façon les estimations pour les années observées.
Année |
log(NA) estimé |
NA estimé |
NA observé |
erreur |
85 |
2.284522 |
192.54 |
191.1 |
-1.44 |
90 |
2.204152 |
160.01 |
162.6 |
2.59 |
95 |
2.123783 |
132.98 |
132.9 |
-0.08 |
96 |
2.107709 |
128.15 |
125.4 |
-2.75 |
97 |
2.091635 |
123.49 |
125.2 |
1.71 |
Les erreurs sur les effectifs ne possèdent plus les propriétés des résidus puisque la régression linéaire a été effectuée sur les logarithmes. Elles ne sont plus nécessairement de moyenne nulle, et la somme de leurs carrés est supérieure à la somme des carrés des résidus précédents, qui est minimale.
Moyenne des erreurs |
Moyenne des carrés |
0.0006 |
3.85494 |
La moyenne des carrés des erreurs est nettement supérieure à la précédente, à cause des erreurs commises en 85 et 90 particulièrement élevées.